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(§) Verfahren zur sprecheradaptiven Erkennung von Sprache 

Ein solches Verfahren soil sowohl zur Erkennung einzelner 
Worter als auch von kontinuierlich gesprochener Sprache 
geeignet sein. Es soil sich durch Robustheit der Wortmu- 
stererkennung bei fehlerhafter Silbensegmentierung und 
bet variabler Aussprache, z. B. bet einem Verschlucken von 
Silben, auszeichnen. AuBerdem muB es eine schnelle Adap- 
tion des Systems an einen neuen Sprecher und eine prinzi- 
piell beliebige Generierung und Erweiterung des Wortschat- 
zes aus geschriebenem Text ohne ein expltzites Systemtrai- 
nirig durch Vorsprechen ermdglichen. Eine echtzeitnahe 
Erkennung von Wortern und Wortfolgen soli auch bei sehr 
umfangreichen Wortschatzen moglich sein. Bekannte Ver- 
fahren zur Spracherkennung benotigen ein sehr aufwendi- 
ges Trainingsverfahren. Au&erdem wird bei kontinuierlich 
gesprochener Sprache und gro&erem Vokabular bereits bei 
mittleren Vokabulargro&en eine unuberschaubare Hypothe- 
senflut erzeugt. 

ErfindungsgemeB wird die Spracherkennung auf der Basis 
von silbenorientierten Wortuntereinhetten (sogenannten 
CVC-Einheiten) durchgefuhrt und es wird ein dreidimensio- 
naler zeitdynamischer Vergleich von Wortmustern aus die- 
sen silbenorientierten Wortuntereinheiten mit Mehrfachhy- 
pothesen in einem Testmuster und mit Aussprachevartanten 
in einem Referenzmuster durchgefuhn. 
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Die .Erfindung betrifft ein Verfahren zur sprechera- 
daptiven Erkenriung von Sprache. Ein leistungsfahiges 
Spracherkennungsverfahren hat unter anderem folgen- 
de Anforderungen zu erfiillen: Es mUsseri sowohl iso- 
lierte Worter als auch ein flieBender Redetext erkannt 
werden. Auch bei sehr groBen Wortschatzen sollte die 
Erkennung moglichst in Echtzeit stattfinden. Es ist eine 
schnelle Adaption an einen neuen Sprecher erforderlich. 
Eine beliebige Generierung von Referenz-Wdrtern und 
Erweitejung des Wortschatzes soli ohne (gar rhehrfa- 
ches) Vorsprechen der hinzugefugten Worter moglich 
sein. Aussprachevarianten einzelner Worter mussen au- 
tomation generiert werden kdnnen, und zwar ohne ex- 
plizites Vorsprechen dieser Varianten. Bei flieBender 
Rede soli eine Analyse sich uberlappender Worthypo- 
thesen die gesprochene Phrase erkennen lassen. 

Die bekannten Verfahren zur Spracherkennung aus 
einem groBen Wortschatz (IBM, Dragon, AT&T, BBN, 
Caregie-Mellon-Universitat (CMU)/Pittsburgh; Ober- 
sichtsartikel: Fallside F (1989) Progress in large vocabu- 
lary speech recognition. Speech Technology 4(4), 
14 — 15) wenden vorwiegend Hidden- Markov-Modelle 
auf Phonembasis an. In keinem dieser Systeme ist eine 
automatische Wortschatz-Generierung bzw. -Erweite- 
rung aus geschriebenem Text enthalten. Bei den Erken- 
nern vori IBM und Dragon mussen die Worter isoliert 
gesprochen werden, wahrend die Erkenner bei AT&T, 
BBN und CMU nicht sprecheradaptiv arbeiten. 

Oblicherweise muB jedes Wort im Falle einer spre- 
cherabhangigen Erkennung — vom Benutzer ein- oder 
mehrmals ausgesprochen werden, daruber hinaus — im 
Fall der sprecherunabhangigen Erkennung — von einer 
sehr groBen Anzahl von Sprechern (GroBenordnung 
100 bis 1000) mindestens je einmal. Ein solch aufwendi- 
ges Trajningsverfahren kann vermieden werden, wenn 
sprecheradaptive Verfahren verwendet werden. Mit zu- 
nehmendem Vokabularumfang ist es hinsichtlich einer 
echtzeitnahen Spracherkennung notwendig, schnell und 
ohne groBen Rechenaufwand eine kurze Liste wahr- 
scheintich gesprochener "Wortkandidaten" zu erstellen. 
Aus diesem Untervokabular aus Wortkandidaten wer- 
den anschlieBend im Zuge der Feinanalyse die gespro- 
chenen Worter ermittelt Eine solche Praselektion ba- 
siert auf der Klassifikation von groben Merkmalen in 
Wortuntereinheiten, z.B. in einzelnen Merkmalsvekto- 
ren, Phonemen oder Diphonen. Dies stellt ffir isoliert 
gesprochene Worter — auch aus groBen Vokabularen 
— ebenso wie fur Ziffernfolgen (vergleiche Chen FR 
(1986) Lexical access and verification in a broad phone- 
tic approach to continuous digit recognition. IEEE 
ICASSP, 27.7.1-4; Lagger H, Waibel A (1985) A coarse 
phonetic knowledge source for template independent 
large vocabular word recognition. IEEE ICASSP(2), 
23.6.1-4; Lubensky D, Feix W (1896) Fast feature-based 
preclassification of segments in continuous digit reco- 
gnition. IEEE ICASSP, 27.6.1 -4) ein praktikables Verfah- 
ren dar. Bei kontinuierlich gesprochener Sprache und 
groBerem Wortschatz fuhrt dies hingegen bereits bei 
mittleren VokabulargroBen zu einer unuberschaubaren 
Hypothesenflut, da prinzipiell bei jeder dieser kleinen 
Einheiten ein neues Wort anfangen kann und bei jeder 
Einheit der gesamte Wortvorrat zu durchsuchen ware. 
Eine zwei- oder dreidimensionale dynamische Program- 
mierung ist aus Micca G, Pieraccini R, Laface P (1987) 
Three dimensional DP for phonetic lattice matching. Int 
Conf on Dig Signal Proc, Firence, Italy und Ruske G, 



Weigel W (1986) Dynamische Programmierung aut r 
Basis silbenorientierter Einheiten zur automatischen er- 
kennung gesprochener Satze. NTG-Fachberichte 94, 
Sprachkommunikation, 91—96 bekannt. 

5 Bei den bekannten Verfahren sind die vorstehend ge- 
nahnten Anforderungen nicht vollstandig und teilweise 
nicht ganz zufriedenstellend erfullt 

Der Erfindung liegt die Aufgabe zugrunde, ein Ver- 
fahren zur sprecheradaptiven Erkennung von Sprache 

io zu schaffen, das in der Lage ist, sowohl isolierte Worter 
als auch kontinuierliche Sprache bei einem praktisch 
unbegrenzten Vokabular echtzeitnah zu erkennen und 
das auch die weitereh Anforderungen an ein leistungsfa- 
higes Spracherkennungsverfahren erfullt. 

is Diese Aufgabe wird erfindungsgemaB durch das Ver- 
fahren nach Patentanspruch 1 gelost 

Weiterbildungen der Erfindung sind den Unteran- 
spruchen zu entnehmen. Die Vorteile der Erfindung lie- 
gen insbesondere in der Robustheit der Wortmusterer- 

26 kennung bei fehlerhafter Silbensegmentierung und bei 
variabler Aussprache, z.B. beim Verschlucken von Sil- 
beh. GroBe Referenzwortschatze brauchen nicht expln 
zit vorgesprochen zu werden. Silbenorientierte Wort- 
untereinheiten ermoglichen im Vergleich zu den sonst 

25 gebrauchlichen Phonemen eine effizientere Generie- 
rung von Worthy pothesen, 

Ein Ausfuhrurigsbeispiel der Erfindung wird im fol- 
genden anhand der Zeichnung erlautert Es zeigen: 
Fig. 1 ein Funktionsdiagramm, das den modularen 

30 Aufbau des erflndungsgemaBen Verfahrens erkennen 
laBt, 

Fig. 2 ein Diagramm zur Erlauterung des dreidimen- 
sionalen zeitdyriamischen Vergleichs zur Worterken- 
nung, und 

35 Fig. 3 ein Funktionsdiagramm zur Erlauterung der 
akustischen Praselektion eihes Untervokabulars bei der 
Erkennung isolierter Worter oder flieBender Rede. 

Bei einem zur erkennenden Sprachsignal 1 findet zu- 
nachst eine Extraktion 2 von Merkmalsvektoren statt. 

40 Ein soleher Merkmalsvektor wird z.B. aus Filterbank- 
Koeffizienten gebildet, die die Intensitaten fur die ver- 
schiedenen Frequenzbereiche des Signals kennzeich- 
nen. AnschlieBend wird eine automatische Segmentie- 
rung und KJassifikation 3 der aufeinanderfolgenden 

45 Merkmalsvektoren durchgefuhrt, und zwar in silben- 
orientierte Wortuntereinheiten. Geeignete silbenorien- 
tierte Wortuntereinheiten sind z.B. CVC- Einheiten 
(CVC fur: consonant cluster — vocalic syllable kernel — 
consonant cluster), die aus einem vokalischen Silben- 

50 kern V mit vorausgehender silbeninitialer und riachfol- 
gender silbenfinaler Konsbnantenfolge oder einzelnen 
konsohantischen Phonemen C je Silbe bestehen. Die 
Segmentierung und Klassifikation 3 der Vektorfolgen 
wird anhand eihes gespeicherten Vorrats an Wortunter- 

55 einheiten, im folgenden als Wortuntereinheiten^Inven- 
tar 4 bezeichnet, durchgefuhrt Die Segmentierung und 
Klassifikation 3 der Vektorfolgen ergibt ein Hypothe- 
sennetz 6 (oder auch Netzwerk) aus Wortuntereinhei- 
ten, das einer Wprterkennung 7 zugef uhrt wird. 

60 Ein Wortschatz 8 ehthalt abgespeicherte Referenz- 
muster von Wortern. In dem Verfahrensschritt Worter- 
kennung 7 wird aus dem Hypothesennetz 6 aus Wortun- 
tereinheiten unter Zugriff auf die abgespeicherten Refe- 
renzmuster ein Netz 10 von Worthypothesen regene- 

65 riert. Diese Worthypothesen werden sich bei kontinu- 
ierlicher Sprache im allgemeinen uberlappen; aus ihnen 
wird in einem nachfolgenden Syntax-Schritt 12 die ge- 
sprochene Phrase oder der gesprochene Satz ermittelt. 
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In einem Verfahrenschritt Sprecheradaptivitat 13 
wird in einer kurzen Trainingsphase das Spracherken- 
nungsverfahren an einen neuen Benutzer angepaBt, oh- 
ne daB dieser den gesamten Wortschatz vorsprechen 
muQ. Dieser Verfahrensschritt wird als Hybridansatz 5 
durchgefuhrt, d.h. er wird sowohl auf die Ebene der 
Merkmalsvektoren als auch auf die Ebene der Wortun- 
pie^einheiten angewendet ^— - n 

. / Der in dem Verfahren verwendete Wortschatz 8 wird / 
I durch die Eingabe von geschriebenem Text 14 erstellt ho 
1 und erweitert. Die Grapheme dieses Textes werden in 
einer Graphem-Umsetzung 15 automatisch in die hier 
verwendete Wqrtuntereinheiten-Notierung der Worter 
umgewandelt. Die gleichfalls erzeugten Ausspracheva- n 
rianten werden ebenfalls in diese Wortuntereinheiten- is 

Notierung umgesetzt / 

Um das Suchen in grqBen Wortschatzen zu beschleu- 
nigen, ist eine Praselektion 16 vorgesehen, mit deren 
Hilfe lediglich ein ausgewahltes Untervokabuiar auf 



der akustischen oder gesprochenen Wortuntereinheiten 
verwendet wird. Die Referenz-Wortuntereinheiten wer- 
den in der Trainingsphase aus markierten Sprachdaten 
gewonnen, die alle vorkommenden Wortuntereinheiten 
enthalten. Ein Worteintrag in das Vokabular enthalt 
demgemaB neben der Orthografie, Silbenzahl usw. sol- 
che Indexfolgen fur die Standardaussprache und die 
Aussprachevarianten. Wahrend der Worterkennung 
werden diese Indexfolgen mit dem Hypothesennetz aus 
Wortuntereinheiten — die ebenfalls in Indexforrrt vor- 
liegen — verglichen (Fig. 2). Entscheidend ist hier die 
Kompatibilitat zwischen der Verarbeitung des Sprach- 
signals zu Wortuntereinheiten und der damit uberein- 
stimmenden Analyse des geschriebenen Textes. 

Um sowohl der hohen Variability der Aussprache 
eines feinzelnen Benutzers und erst recht der Ausspra- 
che verschiedener Benutzer Rechnung zu tragen, ist es 
im Hinblick auf eine zuverlassige Spracherkennung au- 
Berdem vorteilhaft, Aussprachevarianten zu beriick- 



Ahnlichkeit mit der gesprochenen AuBerung untersucht 20 sichtigen. Bei umfangreichen Wortschatzen ist nur die 



wird. 

Die Verfahrensschritte oder Module Worterkennung 
7 und Wortschatz 8 werden nun anhand von Fig. 2 ein- 
gehender erlautert. Die Worterkennung 7 wird durch- 
gefuhrt, indem das Hypothesennetz 6 aus Wortunterein- 
heiten des Testmusters mit den Referenzmustern im 
Wortschatz 8 verglichen werden. In diesen Referenzmu- 
stern oder Wortmodellen sind neben der Standardaus- 
sprache des jeweiligen Wortes auch Aussprachevarian- 
ten, und zwar Lineare Varianten einzelner Wortunter- 
einheiten oder Varianten mit Silbenauslassungen, inte- 
griert In dem Wortschatz 8 (Fig. 2) ist dies beispielshaft 
anhand des Wortes "Erdbeeren" dargestellt: Die Stan- 
dardaussprache VI als dreisilbiges Wort, eine (lineare) 
Variante V2 an einer Stelle, sowie eine Silbensprung- 
VarianteV3. 

Sowohl als Referehzmuster aus dem Wortschatz 8 
wie auch als Testmuster liegt je ein Wprtuntereinheiten- 
Netz vor. Zur Worterkennung muB deshalb ein dreidi- 
mensionaler zeitdynamischer Vergleich 18 durchgefuhrt 
werden, bei dem zwei Dimensionen durch die zeitliche 
Entwicklung von Test- und Referenzmuster gegeben 
sind, wahrend die dritte Dimension von den verschiede- 
nen Hypothesen oder Aussprachevarianten pro Wort- 
untereinheit aufgespannt wird. 

Es sind zwar schon Spracherkenhungs- Verfahren mit 
dreidimensionalem Vergleich bekannt, sie verarbeiten 
aber hochstens zwei Alternativen pro Wortuntereinheit 
und beruheri insbesondere auf einer Segmentierung der 
Sprachsignale in Folgen von Phonemen. Dies hat eine 
ganz erhebliche Anzahl von moglichen Zuordnunjgen 
zur Folge. Die in dem erfindungsgemaBen Verfahren 
verwendeten silbenorientierten Wortuntereinheiten 
bieten dagegen den Vorteil, daB bei der zeitdyhami- 
schen Musteranpassung nur Einfugungen oder Auslas- 
sungen von ganzen Silben vorkommen konnen, z.B. von 
einem Vokal zur silbenfinalen Konsonantenfolge der 
nachfolgende Silbe (aus CVC/CVC wird CVC). Dies hat 
eine erhebliche Einschrankung der moglichen Zuord- 
nungen im Vergeich zu den bekannten Verfahren zur 
Folge. 

Um das Vokabular aus einem geschriebenen Text au- 
tomatisch zu erstellen und zu erweitern, wird die Ortho- 
grafie — auch Rechtschrift oder Graphemfolge eines 
neuen Wortes umgewandelt in eine Folge von Indizes 
von silbenorientierten Wortuntereinheiten. Diese ent- 
sprechen den Indizes der Elemente des Inventars 4, das 
in der Worterkennung 7 als Referenz zur Klassifikation 



automatische Generierung solcher Aussprachevarian- 
ten mit Hilfe phonologischer Regeln praktikabel. 

Um den Suchvorgang in umfangreichen Wortschat- 
zen zu beschleunigen, wird eine Praselektion 18 (Fig. 3) 
25 angewendet, mit deren Hilfe lediglich ein ausgewahltes 
Untervokabuiar auf Ahnlichkeit mit der gesprochenen 
AuBerung untersucht wird. Die Praselektion beruht auf 
einer Klassifikation 19 nach "groben" silbenorientierten 
Wortuntereinheiten und einer "groben" und robusten 
30 Suche (Worterkennung) 20 in einem Wortschatz 21, der 
entsprechend "grob" kodierte Eintrage enthalt Das Re- 
ferenzmaterial zu der Identifikation der groben Wort- 
untereinheiten, ein sogenanntes Grob-Iriventar 22, wird 
aus dem alle Wortuntereinheiten umfassenden Inventar 
35 4 durch KJassenbildung generiert, die getrennt je nach 
Typ der Wortuntereinheit erfolgt, zJ. jeweils Vokale, 
silbeninitiale oder -finale Konsonatenfolgen. 

Dabei werden akustisch ahnliche Wortuntereinheiten 
in sogenannten Clustern zusammengefaBt Dies kann 
40 z.B. wahlweise durch eine akustische Beurteilung, durch 
eine Ermittlung disjunkter Untermengen auf der Basis 
von Ahnlichkeits- oder Verwechslungsmatrizen und/ 
oder mit Hilfe bekannter Clusteringverf ahren erfolgen. 
Das Zwischenergebnis nach der Grob-KJassifikation 
45 entsprechend dem groben Referenzinventar besteht al- 
so aus einer Folge 24 aus groben Wortuntereinheiten. 
Aus dieser Folge 24 ermittelt das Modul zur groben 
Worterkennung 20 ein Untervokabuiar 25 mit den best- 
passenden Wortkandidaten. Deren Wortmodelle, d.h. 
50 deren Wortuntereinheiten-Notierungen fur die Stan- 
dardaussprache und die Aussprachevarianten werden in 
der Worterkennung 7 zum Vergleich mit dem Hypothe- 
sennetz 6 herangezogen und nochmals eine Auswahl 16 
getroffen. 

55 Die beschriebene Praselektion eignet sich im Gegeh- 
satz zu alien bisher bekannten Methoden sowohl zur 
schnellen Vorauswahl eines Untervokabulars bei der 
Erkennung von Einzelwortern als auch von verbun- 
dener Sprache, da die Generierung von Wortkandida- 

60 ten auf die Silbenanfange reduziert ist und somit eine 
uberschaubare Hypothesenmenge erzeugL 

Patentanspriiche 

65 1 ♦ Verfahren zur sprecheradapti ven Erkennung von 
Sprache, dadurch gekennzeichnet» 

— daB aus dem zu erkennenden Sprachsignal 
Merkmalsvektoren extrahiert werden, 
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— daB die aufeinanderfolgenden extrahierten 
Merkmalsvektoren in silbenorientierte Wort- 
untereinheiten segmentiert und klassifiziert 
werden, und 

- daB mit diesen Wortuntereinheiten mit 5 
Mehrfachhypothesen aus einem abgespeicher- 
ten Testmuster-Inventar ein dreidimensionaler 
zeitdynamischer Vergleich mit Ausspracheva- 
rianten aus einem Referenzmuster-Wort- 
schatz durchgefuhrt wird. 10 

2. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daB bei flieBender Rede die sich uberlap- 
penden Worthypothesen einer syntaktischen Ana- 
lyse unterworfen und dadurch die gesprochene 
Phrase ermittelt wird. 15 

3. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daB die abgespeicherten Referenz- 
Sprachdaten mit einem Hybridansatz anhand der in 
einer kurzen Trainingsphase gesprochenen AuBe- 
rungen eines neuen Sprechers an diesen Sprecher 20 
adaptiert werden. 

4. Verfahren nach Anspruch 3, dadurch gekenn- 
zeichnet, daB sowohl die Merkmalsvektoren als 
auch die Wortuntereinheiten adaptiert werden. 

5. Verfahren nach Anspruch i, dadurch gekenn- 25 
zeichnet, daB der abgespetcherte Wortschatz ein- 
schlieBIich Aussprachevarianten durch Eingeben 
von geschriebenem Text und regelbasiertes Umset- 
zen dieses Textes in Symbole fur Wortuntereinheir 
ten generiert und erweitert wird 30 

6. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daB zum beschleunigten Erkennen von 
Sprache bei groBen gespeicherten Wbrtschatzen 
eine Praselektion eines Untervokabulars mit Hilfe 
von silbenorientierteii Wortuntereinheiten durch- 35 
gefuhrtwird. 
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